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上 一 节 课 ， 我 们 介绍 了 Logistic Regression 问 题 ， 建 立 cross-entropy error， 并 提出 使 
用 梯度 下 降 算 法 gradient descnt 来 获得 最 好 的 logistic hypothesis。 本 节 课 继续 介绍 使 
用 线性 模型 来 解决 分 类 问题 。 


一 、Linear Models for Binary Classification 


之 前 介绍 几 种 线性 模型 都 有 一 个 共同 点 ， 就 是 都 有 样本 特征 x 的 加 权 运 算 ， 我 们 引入 一 
个 线性 得 分 函数 s: 


s=wiz 


三 种 线性 模型 ， 第 一 种 是 linear classification。 线 性 分 类 模型 的 hypothesis 为 

h(z) = sign(s), 取 值 范 围 为 {-1,+ 们 两 个 值 ， 它 的 err 是 0/1 的 ， 所 以 对 应 的 Bin, (由 ) 是 
离散 的 ， 并 不 好 解 ， 这 是 个 NP-hard 问 题 。 第 二 种 是 linear regression。 线 性 回归 模型 
的 hypothesis 为 h(x) 二 s， 取 值 范围 为 整个 实数 空间 ， 它 的 err 是 squared 的 ， 所 以 对 
应 的 Bi (也 ) 是 开口 向 上 的 二 次 曲线 ， 其 解 是 closed-form 的 ， 直 接 用 线性 最 小 二 乘法 
求解 即 可 。 第 三 种 是 logistic regression。 风 辑 回归 模型 的 hypothesis 为 h(x) = 0(s) 
， 取 值 范围 为 (-1,1) 之 间 ， 它 的 err 是 cross-entropy 的 ， 所 有 对 应 的 五 im， (ww) 是 平滑 的 凸 
函数 ， 可 以 使 用 梯度 下 降 算法 求 最 小 值 。 





linear classification linear regression logistic regression 








h(x) = sign(s) h(x)=s h(x) = 9(s) 

Xo Xo Xo 

Xl a Xl 2 s 

xX» ~ h(x) | x, h(x) | x h(x) 

Xa Xa Xa 

plausible err = 0/1 friendly err = squared plausible err = cross-entropy 

discrete En(w): quadratic convex Ein(W): smooth convex En(w): 
NP-hard to solve closed-form solution gradient descent 








从 上 图 中 ， 我 们 发 现 ，linear regression 和 logistic regression 的 error function 都 有 最 小 
解 。 那 么 可 不 可 以 用 这 两 种 方法 来 求解 linear classification 问 题 呢 ? 下 面 ， 我 们 来 对 这 
三 种 模型 的 error function 进 行 分 析 ， 看 看 它们 之 间 有 什么 联系 。 


对 于 linear classification， 它 的 error function 可 以 写成 : 


erro/i(s,y) = |sign(s) 天 可 三 |sign(ys) 1 


对 于 linear regression， 它 的 error function 可 以 写成 : 


errsgR(s,y) = (s —Yy)” = (ys — 1)’ 


对 于 logistic regression， 它 的 error function 可 以 写成 : 


errog(s,y) = In(l + ezp(—ys)) 


上 述 三 种 模型 的 error function 都 引入 了 ys 变量 ， 那 么 ys 的 物理 意义 是 什么 ? ys 就 是 指 
分 类 的 正确 率 得 分 ， 其 值 越 大越 好 ， 得 分 越 高 。 


linear classification linear regression logistic regression 









h(x) = sign(s) hee es h(x) = 09(s) 
err(h,x,y) = [h(x)Ay] | err(h,x,y) (h(x)—y)* | er(h,x,y) = —Inh(yx) 





erro/1(S, y) errsor(S, y) errce(S, y) 
= [sign(s) #J] = (sj = In(1+exp(-ys) 
= [sign(ys)z 1] = (ys—1) 


(ys): classification correctness score | 


下 面 ， 我 们 用 图 形 化 的 方式 来 解释 三 种 模型 的 error function 到 底 有 什么 关系 : 


Visualizing Error Functions 
0/1 erro/i(S,y) = [sign(ys) 坟 1 
Sqr errson(S,y) = (ys—1) 

Ce errce (Ss,y) In(1 + exp(—ys)) 


scaled ce errsce(S,y) = lo0g,(1+ exp(—ys)) 
Sqr 。 Sqr: large if ys < 1 
4 一 Ce 
but over-charge ys > 1 
2 small errson 一 small erro /1 
1 e。 ce: monotonic of ys 


0 small errce ¢*> small erro /1 


scaled ce: a proper upper bound of 0/1 
small errsce © Small erro /1 


办 
@@ 





从 上 图 中 可 以 看 出 ，ys 是 横 坐 标 轴 ，er7o/1 是 呈 阶 梯 状 的 ， 在 ys>0 时 ，e77o/1 恒 取 最 
小 值 0。er7s@R 呈 抛物 线形 式 ， 在 ys=1 时 ， 取 得 最 小 值 ， 且 在 ys=1 左 右 很 小 区 域内 ， 
er77001 和 er7soR 近 似 。er7cz 是 呈 指 数 下 降 的 单调 函数 ，ys 越 大 ， 其 值 越 小 。 同 样 
在 ys=1 左 右 很 小 区 域内 ，e77o/ 和 er7cz 近 似 。 但 是 我 们 上 发 现 er7czP 并 不 是 始终 在 
e770/1 之 上 ， 所 以 为 了 计算 讨论 方便 ， 我 们 把 errcz 做 幅 值 上 的 调整 ， 引 入 
errsopg = logs (1 十 ezp( 一 15)) = perrop, 这 样 能 保证 errscp 始 终 在 err0 /1 
上 面 ， 如 下 图 所 示 : 


Visualizing Error Functions 
0/1 erro/(s,y) = [sign(ys)@ 1] 


sqr errsoa(s,y) = (ys—1) 
Ce errce (5S,y) = In(1+exp(—ys)) 
scaled ce errsce(S,y) = lo0g,(1 + exp(—ySs)) 


。 0/1:1iffys<0 

。 Sqar: large if ys < 1 
but over-charge ys > 1 
small errsor 一 small erro /1 


ce: monotonic of ys 

small errce *> Small erro/1 
scaled ce: a proper upper bound of 0/1 
small errsce © small erro/1 








由 上 图 可 以 看 出 : 


1 
erro/i(s,Yy) < errscg(s,y) = To "TCE(S,Y) 


0/1 

Ei! (w) < ESC (w) = 3 BO (w) 
0/1 

Ei (w) < BSG (w) = 2 BOS(w ) 


那么 由 VC 理论 可 以 知道 : 
从 0/1 出 发 : 


E(w) < BY (w) + 0 < 3 EEF(w) + OW! 
N 


从 CE 出 发 : 
0/1 区 CE 是， CE 1 cp 


out in n2 


For any ys where s= w7x 


erro/1(S,Y) < errsce(s,y)= Fserrce(S, y). 
= EC (w (w) Es°E(w w) = 1 EcE(w) 


是 
Eu (wj < ESE(w) = 证 后 S(w) 


out ( 二 out 
VC on 0/1: VC-Reg on CE : 
0/1 1 
Exn(w) < En (WwW+o | Ew) < ESS(W) 
< ESE(W) + Qo Es 





small EcE(w) —> small Es (w): 


logistic/linear reg. for linear classification 





通过 上 面 的 分 析 ， 我 们 看 到 err 0/1 是 被 限定 在 一 个 上 界 中 。 这 个 上 界 是 由 logistic 
regression 模 型 的 error function 决 定 的 。 而 linear regression 其 实 也 是 linear 
classification 的 一 个 upper bound， 只 是 随 着 sy 偏离 1 的 位 置 越 来 越 远 ，linear 
regression 的 error function 偏 差 越 来 越 大 。 综 上 所 述 ，linear regression 和 logistic 
regression 都 可 以 用 来 解决 linear classification 的 问题 。 


下 图 列举 了 PLA、linear regression、logistic regression 模 型 用 来 解 linear 


， 再 用 logistic regression 模 型 进行 最 优化 解 。 






linear regression logistic regression 










。 pros: efficient + e pros: e pros: 
strong guarantee easiest “easy 
if lin. separable optimization optimization 


e Cons: loose 
bound of erro/: for 
very negative ys 


se Cons: loose 
bound of eIITO/1 
for large |ys| 


e cons: works only if 
lin. separable, 
otherwise needing 
pocket heuristic 





| 





。 linear regression sometimes used to set wo for 
PLA/pocket/logistic regression 


。 logistic regression often preferred over pocket 





二 、Stochastic Gradient Descent 


之 前 介绍 的 PLA 算 法 和 logistic regression 算 法 ， 都 是 用 到 了 人 迭代 操作 。PLA 每 次 友 代 
只 会 更 新 一 个 点 ， 它 每 次 迭代 的 时 间 复 杂 度 是 O(1); 而 logistic regression 每 次 迭代 要 
对 所 有 NN 个 点 都 进行 计算 ， 它 的 每 时 间 复 杂 度 是 O(N)。 为 了 提高 logistic regression 中 
gradient descent 算 法 的 速度 ， 可 以 使 用 另 一 种 算法 : 随机 梯度 下 降 算法 (Stochastic 
Gradient Descent)。 


随机 梯度 下 降 算 法 每 次 进 代 只 找到 一 个 点 ， 计 算 该 点 的 梯度 ， 作 为 我 们 下 一 步 更 新 w 
的 依据 。 这 样 就 保证 了 每 次 运 代 的 计算 量 大 大 减 小 ， 我 们 可 以 把 整体 的 梯度 看 成 这 个 
随机 过 程 的 一 个 期 望 值 。 


N 
Wi+l 夺 Wi 二 7 二 > .6 (-ywz xn) (ynXn) 


n= 


—V Ein(Wi) 





。 Want: update direction Vv ~ —V Ein(Wi) 
while computing v by one single (xn, yn) 
N 
。technique on removing 1 >): 
n=i1 
view as expectation €£ over uniform choice of ml 


Stochastic gradient: 
Vw err(W, Xn, yn) with random n 
true gradient: 
Vw En(W)= € Vw er(W,Xn,yn) 


random n 







随机 梯度 下 降 可 以 看 成 是 真实 的 梯度 加 上 均值 为 零 的 随机 噪声 方向 。 单 次 迭代 看 ， 好 
像 会 对 每 一 步 找到 正确 梯度 方向 有 影响 ， 但 是 整体 期 望 值 上 看 ， 与 真实 梯度 的 方向 没 
有 差 太 多 ， 同 样 能 找到 最 小 值 位 置 。 随 机 梯度 下 降 的 优点 是 减少 计算 量 ， 提 高 运算 速 
度 ， 而 且 便 于 online 学 习 ; 缺点 是 不 够 稳定 ， 每 次 进 代 并 不 能 保证 按照 正确 的 方向 前 
进 ， 而 且 达 到 最 小 值 需要 和 迭代 的 次 数 比 梯度 下 降 算 法 一 般 要 多 。 


Stochastic Gradient Descent 


e idea: replace true gradient by stochastic gradient 


e after enough steps, 
average true gradient ~ average Stochastic gradient 


。 pros: simple & cheaper computation :-) 
一 USeful for big data or online learning 


e Cons: less stable in nature 





对 于 logistic regression 的 SGD， 它 的 表达 式 为 : 
Witl €— ws + nO(—yn wt Tn) (Ynzn) 


我 们 发 现 ，SGD 与 PLA 的 帮 代 公式 有 类 似 的 地 方 ， 如 下 图 所 示 : 


SGD logistic regression: 
Wit1 二 Wi 十 110 (-ywpxn) (ynXn) 


PLA: 
Wit1 和 Wi 十 1 [yr 天 sign(wzxn)| (ynXn) 


我 们 把 SGD logistic regression 称 之 为 'soft PLA， 因 为 PLA 只 对 分 类 错误 的 点 进行 修 
正 ， 而 SGD logistic regression 每 次 迭代 都 会 进行 或 多 或 少 的 修正 。 另 外 ， 当 nm = 十， 
且 w? zn 足够 大 的 时 候 ，PLA 近 似 等 于 SGD。 


。 SGD logistic regression ~ ‘soft PLA 
。PLA ~ SGD logistic regression with » = 1 when w/ xn large 


除 此 之 外 ， 还 有 两 点 需要 说 明 : 1、SGD 的 终止 迭代 条 件 。 没 有 统一 的 终止 条 件 ， 一 
般 让 和 迭 代 次 数 足够 多 ; 2、 学 习 速 率 ]7。71 的 取 值 是 根据 实际 情况 来 定 的 ， 一 般 取 值 0.1 
就 可 以 了 。 


二 、Multiclass via Logistic Regression 


之 前 我 们 一 直 讲 的 都 是 二 分 类 问题 ， 本 节 主 要 介绍 多 分 类 问题 ， 通 过 linear 
classification 来 解决 。 假 设 平面 上 有 四 个 类 ， 分 别 是 正方 形 、 萎 形 、 三 角形 和 星 形 ， 
如 何 进 行 分 类 模型 的 训 | 练 呢 ? 


首先 我 们 可 以 想到 这 样 一 个 办 法 ， 就 是 先 把 正方 形 作为 正 类 ， 其 他 三 种 形状 都 是 负 
类 ， 即 把 它 当 成 一 个 二 分 类 问题 ， 通 过 linear classification 模 型 进行 训练 ， 得 出 平面 上 
某 个 图 形 是 不 是 正方 形 ， 且 只 有 {-1,+1} 两 种 情况 。 然 后 再 分 别 以 萎 形 、 三 角形 、 星 形 
为 正 类 ， 进 行 二 元 分 类 。 这 样 进行 四 次 二 分 类 之 后 ， 就 完成 了 这 个 多 分 类 问题 。 


Multiclass Prediction: Combine Binary Classifiers 














x >】 x x 
oO x x x x 
x 8 Oo x 水 X x 
x Oo 9 次 i Ee 下 
O 
狂 二 芭 其 Ki x x x ooo 9 区 了 XX ooo 
x xx % 六 二 x Oo a x do 
其 其 


但 是 ， 这 样 的 二 分 类 会 带 来 一 些 问 题 ， 因 为 我 们 只 用 {-1，+ 人 两 个 值 来 标记 ， 那 么 平 
面 上 某 些 可 能 某 些 区 域 都 被 上 述 四 次 二 分 类 模型 判断 为 负 类 ， 即 不 属于 四 类 中 的 任何 
一 类 ; 也 可 能 会 出 现 某 些 区 域 同 时 被 两 个 类 甚至 多 个 类 同时 判断 为 正 类 ， 比 如 某 个 区 
域 又 判定 为 正方 形 又 判定 为 菱形 。 那 么 对 于 这 种 情况 ， 我 们 就 无 法 进行 多 类 别 的 准确 
判断 ， 所 以 对 于 多 类 别 ， 简 单 的 binary classification 不 能 解决 问题 。 


针对 这 种 问题 ， 我 们 可 以 使 用 另外 一 种 方法 来 解决 : soft 软 性 分 类 ， 即 不 用 {-1，+ 人 } 这 
种 binary classification ， 而 是 使 用 logistic regression， 计 算 某 点 属于 某 类 的 概率 、 可 
能 性 ， 去 概率 最 大 的 值 为 那 一 类 就 好 。 


soft classification 的 处 理 过 程 和 之 前 类 似 ， 同 样 是 分 别 令 某 类 为 正 ， 其 他 三 类 为 负 ， 不 
同 的 是 得 到 的 是 概率 值 ， 而 不 是 {-1，+1}。 最 后 得 到 某 点 分 别 属于 四 类 的 概率 ， 取 最 
大 概率 对 应 的 哪 一 个 类 别 就 好 。 效 果 如 下 图 所 示 : 


Multiclass Prediction: Combine Soft Classifiers 
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9(X) = argmaxkcy / (wxj | 


这 种 多 分 类 的 处 理 方 式 ， 我 们 称 之 为 One-Versus-All(OVA) Decomposition。 这 种 方法 
的 优点 是 简单 高 效 ， 可 以 使 用 logistic regression 模 型 来 解决 ; 缺点 是 如 果 数 据 类 别 很 
多 时 ， 那 么 每 次 二 分 类 问题 中 ， 正 类 和 负 类 的 数量 差别 就 很 大 ， 数 据 不 平衡 


unbalanced， 这 样 会 影响 分 类 效果 。 但 是 ，OVA 还 是 非常 常用 的 一 种 多 分 类 算法 。 


One-Versus-All (OVA) Decomposition 


@ forkey 
obtain wik] by running logistic regression on 


DIk] = {(Xn, yn = 2 [yn = K] — 和 


@ return g(x) = argmaxkey (whax) 





e pros: efficient, 
can be coupled with any logistic regression-like approaches 


。 Ccons: often unbalanced DPIk when K large 
。 extension: multinomial (coupled ) logistic regression 


OVA: a simple multiclass meta-algorithm 
to keep in your toolbox | 


四 、Multiclass via Binary Classification 


上 一 节 ， 我 们 介绍 了 多 分 类 算法 OVA， 但 是 这 种 方法 存在 一 个 问题 ， 就 是 当 类 别 k 很 多 
的 时 候 ， 造 成 正 负 类 数据 unbalanced， 会 影响 分 类 效果 ， 表 现 不 好 。 现 在 ， 我 们 介绍 
另 一 种 方法 来 解决 当 k 很 大 时 ，OVA 带 来 的 问题 。 


这 种 方法 呢 ， 每 次 只 取 两 类 进行 binary classification， 取 值 为 (1，+1}。 假 如 k=4， 那 
么 总 共 需 要 进行 Cf 二 6 次 binary classification。 那 么 ， 六 次 分 类 之 后 ， 如 果 平 面 有 个 
点 ， 有 三 个 分 类 器 判断 它 是 正方 形 ， 一 个 分 类 器 判断 是 凌 形 ， 另 外 两 个 判断 是 三 角 
形 ， 那 么 取 最 多 的 那个 ， 即 判断 它 属 于 正方 形 ， 我 们 的 分 类 就 完成 了 。 这 种 形式 就 如 
同 k 个 足球 对 进行 单 循环 的 比赛 ， 每 场 比赛 都 有 一 个 队 赢 ， 一 个 队 输 ， 赢 了 得 1 分 ， 输 
了 得 0 分 。 那 么 总 共 进行 了 Cx 次 的 比赛 ， 最 终 取 得 分 最 高 的 那个 队 就 可 以 了 。 


Multiclass Prediction: Combine Pairwise Classifiers 




















g(x) = tournament champion {wk ax} 
(voting of classifiers) 





这 种 区 别 于 OVA 的 多 分 类 方法 叫做 One-Versus-One(OVO)。 这 种 方法 的 优点 是 更 加 高 
效 ， 因 为 虽然 需要 进行 的 分 类 次 数 增加 了 ， 但 是 每 次 只 需要 进行 两 个 类 别 的 比较 ， 也 
就 是 说 单 次 分 类 的 数量 减少 了 。 而 且 一 般 不 会 出 现 数据 unbalanced 的 情况 。 缺 点 是 需 
要 分 类 的 次 数 多 ， 时 间 复 杂 度 和 空间 复杂 度 可 能 都 比较 高 。 


One-versus-one (OVO) Decomposition 


@ for (k,t)eyxy 
obtain wkd by running linear binary classification on 


Dikd = {(Xn, yn = 2 [yn = KY — 1): yn = k or yn = 人 





@ return g(x) = tournament champion {whax} 


e pros: efficient (‘smaller training problems), stable, 
can be coupled with any binary classification approaches 


。Ccons: Use O(K2) wika 
一 more space, slower prediction, more training 


OVO: another simple multiclass 
meta-algorithm to keep in your toolbox | 





五 、 总 结 


本 节 课 主要 介绍 了 分 类 问题 的 三 种 线性 模型 : linear classification、linear regression 
和 logistic regression。 首 先 介 绍 了 这 三 种 linear models 都 可 以 来 做 binary 
classification。 然 后 介绍 了 比 梯度 下 降 算 法 更 加 高 效 的 SGD 算 法 来 进行 logistic 
regression 分 析 。 最 后 讲解 了 两 种 多 分 类 方法 ， 一 种 是 OVA， 另 一 种 是 OVO。 这 两 种 
方法 各 有 优 缺 点 ， 当 类 别 数量 k 不 多 的 时 候 ， 建 议 选 择 OVA， 以 减少 分 类 次 数 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台湾 大 学 林 轩 田 《机 器 学 习 基石 》 课 程 


